查看原文
其他

1.5G数据集 | 200万条Indiegogo众筹项目信息

大邓 大邓和他的Python
2024-09-09


Indiegogo

Indiegogo成立于2008年,全球最大的科创新品首发和众筹平台, 是美国最早的众筹平台之一。


参考论文

该数据集研究价值,可用于研究市场营销、创新创业、信息管理等, 部分使用众筹数据集作为研究对象的论文。

[1]王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.管理世界.2016;5:81-98. [2]Dai, Hengchen and Dennis J. Zhang. “Prosocial Goal Pursuit in Crowdfunding: Evidence from Kickstarter.” Journal of Marketing Research 56 (2019): 498 - 517. [3]Gafni, H., Marom, D.M., Robb, A.M., & Sade, O. (2020). Gender Dynamics in Crowdfunding (Kickstarter): Evidence on Entrepreneurs, Backers, and Taste-Based Discrimination*. Review of Finance. [4]Jensen, Lasse Skovgaard and Ali Gürcan Özkil. “Identifying challenges in crowdfunded product development: a review of Kickstarter projects.” Design Science 4 (2018): n. pag.



Indiegogo数据

2016年4月写好的Indiegogo爬虫,每月执行一次, 

最新的数据 可以前往https://webrobots.io/indiegogo-dataset/



‘原始’数据

Web Robot网上公开的的Indiegogo原始数据几十个 csv文件,



整理

大邓将上图的zip全部合并为一个 Indiegogo_dataset.csv , 该文件 1.57G

import pandas as pd
import warnings
warnings.filterwarnings('ignore')

dff = pd.read_csv('Indiegogo_Dataset/Indiegogo_dataset.csv', on_bad_lines='skip')
dff.head()

Run


数据集的字段有

df.columns

Run

Index(['bullet_point'
       'category''category_url',  #项目类目及url
       'clickthrough_url'#进入当前项目经由的某url
       'close_date',  #项目截止日期
       'currency',  #货币
       'funds_raised_amount',  #当前已筹集的资金
       'funds_raised_percent'#筹集资金进度(当前筹资/项目目标金额)
       'image_url',  #图片url
       'is_indemand'
       'is_pre_launch'#是否为预演
       'offered_by',  #项目发起人
       'open_date'#项目开始日期
       'perk_goal_percentage''perks_claimed'
       'price_offered'#众筹价
       'price_retail'#零售价
       'product_stage',  #产品阶段
       'project_id'#项目id
       'project_type'#项目类型
       'source_url'#项目url
       'tagline''tags'#标签
       'title' ], #项目标题
      dtype='object')


数据获取


  • 原始数据
    • https://webrobots.io/indiegogo-dataset/
  • 整理的1.57G csv,
    • https://hidadeng.github.io/blog/2022-12-08-indiegogo-dataset/


精选文章

管理世界 | 使用文本分析词构建并测量短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

支持开票 | Python实证指标构建与文本分析

推荐 | 社科(经管)文本分析快速指南

视频分享 | 文本分析在经管研究中的应用

转载 | 金融学文本大数据挖掘方法与研究进展

FinBERT | 金融文本BERT模型,可情感分析、识别ESG和FLS类型

BERTopic | 使用推特数据构建动态主题模型

JM2022综述 | 黄金领域: 为营销研究(新洞察)采集网络数据

可视化 | 绘制《三体》人物关系网络图

资料 | 量化历史学与经济学研究

长期征稿 | 欢迎各位前来投稿

12G数据集 | 23w条Kickstarter项目信息

17G数据集 | 深交所企业社会责任报告

70G数据集 | 上市公司定期报告数据集

27G数据集 | 使用Python对27G招股说明书进行文本分析

数据集 | 585w企业工商注册信息

数据集 | 90w条中国上市公司高管数据

可视化 | 绘制《三体》人物关系网络图

Maigret库 | 查询某用户名在各平台网站的使用情况

MS | 使用网络算法识别创新的颠覆性与否

认知的测量 | 向量距离vs语义投影

Asent库 | 英文文本数据情感分析

PNAS | 文本网络分析&文化桥梁Python代码实现

PNAS | 使用语义距离测量一个人的创新力(发散思维)得分

tomotopy | 速度最快的LDA主题模型

Wow~70G上市公司定期报告数据集

100min视频 | Python文本分析与会计

安装python包出现报错:Microsoft Visual 14.0 or greater is required. 怎么办?

如何正确读入文本数据不乱码(解决文本乱码问题)

Faker库 | 生成实验数据

继续滑动看下一个
大邓和他的Python
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存